Web crawler
Un Web crawler (anche conosciuto come Web spider) è un programma che passa in rassegna il World Wide Web in un modo metodico e automatizzato. Un web crawler è un tipo di bot (programma o script che automatizza delle operazioni tipicamente eseguite da utenti umani). I web crawler non mantengono soltanto una copia di tutte le pagine visitate per poi successivamente analizzarle - per esempio da un motore di ricerca ma inoltre indicizzano queste pagine per rendere la ricerca più veloce e precisa.In generale, il web crawler si avvia con una lista di URL da visitare. Mentre visita questi URL, identifica tutti gli hyperlink nella pagina e li aggiunge alla lista di URL da visitare. Il processo o è concluso manualmente, o dopo che un determinato numero di collegamenti sia percorso.
I web crawler tipicamente diluiscono le visite in periodi di tempo abbastanza larghi, perché accedono a molte più pagine di un utente (umano) normale e possono rallentare notevolmente la visita di un sito ai normali utenti se accedono ripetutamente alle stesse pagine.
Per i motivi simili, i web crawler sono obbligati ad obbedire al protocollo "robots.txt", file nel quale i proprietari di Web site possono indicare quali pagine non dovrebbero essere analizzate.